查看原文
其他

网易数帆余利华:DataOps改写数据治理规则,数据资产“iPhone时刻”将临丨数据猿专访

赢家 数据猿 2023-08-31

‍数据智能产业创新服务媒体

——聚焦数智 · 改变商业


工作日的一个早上,某电商公司数据开发团队的负责人小李接到了业务部门同事的电话:“李总,我们需要一份关于某产品销售情况的数据表,但是找了半天一直无法获取到准确的数据,优惠活动最近几天就要上线了,没有数据我们也不敢随便做决策呀……”

小李立刻召集了数据开发团队的成员进行紧急会议,大家一起商讨怎样才能快速地提供准确的数据给业务部门。最终,小李发现数据开发团队的成员们各自使用不同的数据模型和规范,缺乏统一的标准,数据的质量和产出效率受到了很大的影响。同时,由于缺乏有效的数据治理措施,数据质量也无法得到有效保障,导致业务部门的数据需求无法得到满足……

这个场景是不少企业的数据团队经常面临的问题,随着数字化的不断推进,确实不少企业开始沉淀和积累自己的“数据资产”,而且各种系统也尽可能的提升了数据分析能力和效率,然而,数据开发和数据消费之间仍然存在着一些难以逾越的“鸿沟”,因为数据开发流程缺乏业务视角的质量保障,导致企业的业务运营效率、管理、决策受到很大影响。

很多企业在处理这一问题时,最常用的方式就是另外建设数据治理体系,通过开展跨部门协作和沟通的方式,建立协同机制和流程,从而使得数据开发和数据治理之间的联系得以加强。这种方式表面上看是解决了问题,但实际上却增加了沟通成本,使得团队的效率变慢了。

海量的数据非但没有提升团队工作效率,却产生了“数据贫困”的问题,根据Gartner的报告,由于数据质量问题,每年会造成企业10亿美元的损失,这该如何解决?针对这个问题,数据猿采访了网易数帆大数据产品线总经理余利华,分享网易数帆的数据开发治理一体化的创新实践。

海量数据不等于数据资产

随着大数据技术的快速发展、企业数字化的不断升级,数据量也越来越多。企业在数字化进程中发挥数据潜能顺应外界变化,Gartner认为应该考虑用数据资产化的方式,数字资产应该是一种可交付、可复用的产品,具有很高的共享价值。然而,海量的数据却往往让企业陷入了“数据贫困”的困境中,难以共享、复用。余利华认为,数据贫困集中体现在找不到、看不懂、信不过、管不住四个方面。

“找不到”是指在现代企业中,数据通常存储在分散的数据库中,这些数据库可能由不同的部门或团队维护。这就导致了一些数据没有被挂载目录,规范性差,业务人员要从中找到想要的数据无异于大海捞针。就像文章开头的那家电商公司,明明积累了海量的数据,也有专业的数据团队,但业务人员仍然找不到需要的数据在哪里。当然,这样的问题也不只存在于电商公司,像网易这样的大型互联网公司,此前也存在类似问题。例如,在网易内部,网易严选一个业务有十几万张表,云音乐有八万多张表,业务人员要找到所需数据非常困难。这不仅浪费了业务人员的时间和精力,也限制了企业决策的准确性和效率。

“看不懂”是元数据的缺失和管理不善带来的问题,比如曾经在网易内部的某项业务中,由于78%的元数据都存在缺失,即使业务人员找到了数据也看不懂。这是因为数据通常以一种技术术语的形式存储,对于非专业人士来说,这些术语可能很难理解。此外,数据本身也可能很复杂,需要专业知识才能理解。如果业务人员无法理解数据,那么他们就无法利用数据做出正确的决策。

“信不过”主要是数据质量和可信度存在问题。比如曾经在网易内部的某项业务中,每周都有10个以上的数据质量问题被投诉,甚至存在供应商数据泄露问题……这表明数据的质量和可信度存在问题。而数据的质量问题可能包括数据缺失、数据错误、数据重复等,这些问题会导致业务人员对数据的准确性产生怀疑,并且会影响他们对数据的信任度。数据泄露问题则会导致企业的商业机密和客户隐私泄露,严重影响企业的声誉和信誉。

“管不住”主要是数据不能被有效的管理和控制。比如在某个事业部的数据中台,78.39%的表占据了21.63%的存储空间,然而,这些消耗大量开发人力、存储资源和计算资源的数据,在30天内都没有一次访问,导致大量资源浪费。如果数据没有得到有效的管理和控制,就会导致数据的不必要复制、冗余和无用,进而浪费企业的资源和成本。

总之,数据资产质量不高是一个严重的问题,DataOps作为一种高效使用数据和改进数据驱动决策的新工具受到了普遍的关注。目前而言,市场上常见的DataOps的实践,是融合CI/CD能力的数据开发流水线的建立,虽然这种方式规范了整体数据开发的流程,但是对于满足数据消费需求而言,仍然缺乏必要的约束,也没有完全解决上述的四个常见问题,因此,需要从更高的维度来寻找解决方案。

网易开创数据开发治理一体化

为了从根本上解决“数据贫困”的问题,网易数帆在数据开发流水线基础之上,提出了数据开发治理一体化的概念,也就是端到端的DataOps实践。从字面意思上就能看出,网易数帆的方式与常规方式不同的点在于,它将数据开发和数据治理完全打通。余利华告诉数据猿,很多企业在做数据中台或搭建数据平台时,数据开发过程和数据治理过程是分开的,甚至可能是不同的供应商提供的服务,两者分开容易导致数据标准、元数据等存在差异,进而使得业务人员在消费数据时,找不到数据、看不懂数据,出现“数据贫困”。网易数帆提出的端到端的DataOps核心就是12个字:先设计后开发、先标准后建模。也就是说,企业在数据开发之前,需要先考虑清楚需要什么数据、如何设计……然后根据整体的设计再进行数据开发。这个过程非常像软件项目的开发流程,以终为始,先确定产品的目标和需求,以确保开发过程的正确性和高效性,同时,还可以帮助企业降低数据平台搭建的成本。

其实,从这12字的核心不难发现,网易数帆解决问题的视角更具有全局化。传统的解决方案是“块块”方案或者叫局部视角,而端到端的DataOps是通盘考虑,平台搭建初期,业务方、数据架构师、数据产品开发人员要进行整体的设计,在设计阶段就要把业务相关的规范都沉淀在数据标准上,然后再以数据标准为核心,自动生成数据质量稽核规则,自动生成表的分类分级策略、数据脱敏策略、数据安全管理策略等——这些都是确保企业数据能够更好地共享复用的核心资产。回到文章开篇那家电商公司,如果在进行数据开发前,先有完整的设计,将标准和规范率先梳理完成,则后续的数据平台就不会出现“找不到”数据的情况。

从这个逻辑不难发现,在数据开发治理一体化中,只要是有了设计、有了标准,后面的开发和建模过程会非常顺畅,而且依照设计和标准规范建设的模型都符合规范,不需要经过评审再改造和重构。

对于企业而言,有了数据平台整体的设计和标准,后续的开发和建模过程的编码问题都不用担心了,甚至完全可以放心地外包给第三方公司去编码,因为在标准前置的约束下,基本不存在上线之后无穷无尽修改问题的“怪圈”,也基本不存在交付产品不符合规范和标准的问题,毕竟规范和标准早已确定。如此一来,企业就无需再为“数据贫困”的问题发愁,数据使用和业务运营的效率得以极大提升,开发成本也将大幅降低。

以终为始思考,研发团队效率提升10倍

余利华认为,某种意义上,端到端DataOps对于数据资产的价值,可以类比为手机领域的“iPhone时刻”,将从根本上改写数据治理的规则。数据开发治理一体化的核心理念与传统的解决思路相比,基本可以用“降维打击”来形容,因为它是从更加全局的角度、以终为始的思考数据中台或数据平台的建设,而不仅仅纠结于其中的某一个环节。开发治理一体化,可以带来多方面的优势:解决了数据找得到、看得懂、信得过、管得住的问题,大幅提升了数据资产建设的质量和效率,减少因为数据错误而导致的返工,降低了开发治理多个团队之间协作的难度,所以交付应用的效率变得更高了。Gartner预测,到2025年,相比传统方式,采用DataOps方式的研发团队的效率可以提升10倍。 

以网易云音乐为例,采用DataOps开发治理一体化模式可以实现模型复用、规范建设、规则覆盖率等多方面的效率提升:在模型复用方面,先设计后开发极大程度保证了公共层逻辑下沉,可大幅降低指标数量,云音乐模型复用度从提升4倍,下线 3.4W万个模型;在规范建设方面, 从之前没有任何安全规范,到目前字段及指标的安全等级完成 100% 设置;在质量方面,规则覆盖率大幅度提升,业务元数据也得到补充,数据得到更好用。

从数据应用的角度,余利华认为,开发治理一体化还提升了管理人员与业务团队的自助数据服务能力。网易数帆的某客户,通过从0到1建设数据开发治理一体化平台,形成了好用的数据资产,目前有200人数据分析团队可以实现自助分析,其中包括高管32人。此外还可以降低数据事故发生概率,提升业务合规能力。目前,网易数帆在某金融客户落地了180项标准,帮助客户有效降低监管处罚风险。

余利华还向数据猿介绍了某电信运营商的案例,来更深入分析数据开发治理一体化所能带来的优势。

某电信运营商是一家国有企业,拥有大量的用户数据和运营数据。为了更好地管理这些数据,该运营商建立了多个数据系统,并实施了数据治理项目。然而,他们仍然面临着标准无法落地的困境。其实,该运营商面临的主要问题是数据标准、数据质量和数据开发规范只停留在字典层面,无法融入数据生产的流程。其次,数据质量稽核规则无法和数据标准中数据元的值域约束打通,数据标准中数据元跟数据建模工具无法联动,元数据管理中的数据安全等级和安全中心的数据脱敏也无法联动。

为了解决这些问题,该运营商引入了网易数帆EasyData平台,实现端到端的DataOps。EasyData平台的成功应用,为该运营商的数据治理提供了一个良好的解决方案,也证明了数据开发一体化的实现可以有效地提高数据质量和开发效率。该电信运营商借助EasyData平台,建设了100余个数据质量稽核,覆盖上线作业数8000+个,累计支撑自助分析60000+次,消费端及时获取高质量数据不再是难题。可以说,EasyData的实施,不仅强化了数据治理和管理,还有效地降低了数据治理的人工参与,提升了数据产出的效率。

当然,数据开发治理一体化的优势不仅体现在使用端“降本增效”和数据安全规范上,在研发效率、数据质量、自助式服务、降低数据事故等方面,都有自己独特的优势。

数据猿观察:数据开发治理一体化已成新趋势

既然数据开发治理一体化的优势如此明显,那它会成为行业未来的趋势吗?数据猿认为,可以从以下四个方面思考。

首先,数据开发治理一体化可以提高数据质量和可靠性。根据Gartner的报告,数据开发治理一体化的方案,可以将数据质量问题带来的损失降至最低,从而提高企业的决策效率和业务效益。

其次,数据开发治理一体化符合法律法规和市场需求。根据市场研究机构IDC预测,到2025年,全球数据治理和隐私解决方案市场规模将达到152亿美元。数据开发治理一体化可以帮助企业满足法律法规的要求,例如,对个人信息进行保护、合规地收集和使用数据等,提高企业的竞争力和创新能力。

第三,数据开发治理一体化可以提高数据生产的效率和创新能力。根据Forrester的调查报告显示,有超过50%的企业认为数据开发效率和创新能力是他们最关心的问题。数据开发治理一体化可以提高数据效率和创新能力的统一管理,从而提高企业的竞争力和创新能力。

第四,数据开发治理一体化更加有利于多种新技术的融合。今年以来,人工智能随着ChatGPT的火爆而备受关注,数据猿认为,无论是通用的大模型还是垂直方向的大模型,它的发展都离不开企业大数据的支持,而如何利用好企业本身沉淀的数据资产、如何训练辅助自身业务的大模型产品,与数据开发、数据治理有最直接的关系,打通企业的数据资产恰恰是数据开发治理一体化的优势所在。

综合以上四点,如果用一句来总结,那就是:数据开发治理一体化的模式更加匹配数据行业的未来发展趋势,同时也是增强企业竞争力的“实力工具”。事实上,数据开发治理一体化已经被写入中国信息通信研究院云计算与大数据研究所牵头编制的《DataOps实践指南(1.0)》之中,该报告指出,集数据开发、治理、运营于一体的DataOps,通过构建全局数据观测视图,前置数据质量管控,可以有效解决以往开发治理两张皮、数据需求不畅通、产品交付效率低、跨域协同难推进、开发成本难管控等问题。

余利华在谈到DataOps未来的规划时提到了两个点:一是继续做好基础性的工作,主要是持续改进用户体验和对接更多的数据底座,打造实时DataOps等;二是探索数据开发治理一体化与新技术融合,比如低代码、AIGC等,通过不断融合新技术,实现安全级别的推荐、标准的自动匹配、计算任务自动生成和纠错、错误的自动诊断等智能治理能力,降低用户的使用门槛。数据猿认为,这两个方向就是网易数帆“高筑墙、广积粮”的战略方向。

在数字化转型不断推进、技术创新日益加速的数字时代,企业拼到最后,其实拼的不是数据的积累量和技术迭代的速度,而是数据效率。

为了给企业数智化提供新思路、新方向,8月10日,网易数帆携手中国信通院、生态合作伙伴和金融、制造等企业,在北京JW万豪酒店举办主题为“精耕数智为创新加速——网易数帆城市行(北京)”的产业峰会,共同分享数智技术的最新进展和行业实践经验。

文:赢家 / 数据猿

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存